05. Q 学习
Q 学习
注意 :因为 SARSA 和 Q 学习都是 TD 方法,它们都有一个缺点,即使用非线性算法逼近时,可能无法收敛于全局最优。
阅读延伸
-
Rahimi 和 Recht, 2007 年,
《大规模内核机器的随机特征》
将会提供类似于 RBF 内核转换的有效逼近。
Q 学习
注意 :因为 SARSA 和 Q 学习都是 TD 方法,它们都有一个缺点,即使用非线性算法逼近时,可能无法收敛于全局最优。
阅读延伸